查看原文
其他

你需要关注的计算机视觉论文在这里!最新最全state-of-art论文,包含阅读笔记

ahong007007 极市平台 2021-09-19

加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~



Tips

◎作者系极市原创作者计划特约作者ahong007007欢迎大家联系极市小编(微信ID:fengcall19)加入极市原创作者行列

2020年的今天,我们的专业是deep learning,但是我们要keep learning,每天早上一睁眼,arxiv每天更新上百篇的论文,著名微博博主@爱可可-爱生活保持也在推送最新的deep learning资讯和论文。

我们不缺少计算机视觉论文,我们缺少的是鉴别哪些应该读。无论是泛读还是精度,海量论文总是让我们迷失双眼,Github搜索awesome有成百上千个repo,但是缺少比较和注解。我们应该去哪里找值得读的论文,我们打开pdf论文的姿势正确吗?

计算机视觉的论文应该怎么读

海量论文看不够,自己萌发了分门别类写阅读笔记的习惯。好记性不如烂笔头,更何况计算机视觉方向众多,对自己不熟悉的领域,每次都从头阅读,感觉很费劲。当我分门别类阅读计算机视觉的科研论文,查询和检索如此简单。比如对于目标检测领域,有综述,人脸检测,目标检测,样本不平衡问题,one-stage 检测,每篇论文都有阅读等级,解决的主要问题,创新点,可能存在的问题,TODO等,随时随地和查询过去的知识点。复习某一领域的知识,只要一根绳子就串起来

个人阅读计算机视觉论文,会横向和纵向发散,考虑更多的问题:

 要点一 


每篇论文都不会说自己的缺点,只会放大优点。但是引用别人的论文时,却总放大别人工作的缺点。当你对比阅读时,形成一个知识串,才会对某个问题有更清晰的认识。

 要点二 


论文为了出成果,一般只会选择对自己模型有力的数据集验证对某一领域数据集特征了解,再也不会被作者蒙蔽双眼了。比如NAS(Neural Architecture Search),很多论文喜欢在CIFAR-10/ CIFAR-100/SVHN等小数据集比实验结果,ImageNet性能表现避重就轻避而不谈;很多论文写state-of-art的性能,对实时性不谈;论文没有说的没有做的可能是个大坑。

 要点三 


论文因为要投稿和发表顶会,故意会云里雾里引入很多概念和公式,当对比代码,关键trick,才能返璞归真Code+paper,才是论文最佳的阅读方式。

 要点四 


对于自己关注的领域,可能每篇有影响的,实验结果不是state-of-art也要关注,因为工作可能会撞车。对横向领域的论文,要关注state-of-art,说不定很多trick可以直接迁移到自己的工作。

 要点五 


重点关注数著名实验室/老师/三大顶会(CVPR,ICCV,ECCV)的连续剧。2020年的CVPR投稿量都破万,各种水文鱼目混杂,实在是难以鉴别,个人倾向于paper+code模式。敢于开源code的论文,真金不怕火炼,作者有底气。没有code的论文,也许是商业或者其他授权暂时没有发布,但是发布了一两年还在遮遮掩掩,这些论文不看也罢。

 要点六 


最重要一点:拒绝二手知识。阅读一篇论文,google搜索题目可能有1000+篇的阅读笔记,阅读笔记的数量比论文的引用量都多;包括我在内的很多博客/笔记也喜欢摘抄,google翻译+复制粘贴造就阅读笔记的虚假繁荣。有些问答还是具有参考意义,比如知乎中常见的“如何评价Google Brain团队最新检测论文SpineNet?”,在这些如何评价的思想碰撞中,还是有些很好的火花。个人感觉不管是做科研学术工业界做项目,要摒弃完全重二手知识中学习,直接从原文阅读思考、和作者邮箱联系寻找答案

最新最全的state-of-art论文

自己也在github找论文,有些repo推荐的论文对自己帮助很大。我发现这些repo只是论文的堆砌,可能发布awesome的人也没有完全读过这些论文。基于自己对论文的理解,和每年看一篇论文的目标,于是将每天的阅读笔记发布在https://github.com/ahong007007/awesomeCV。包含检测识别、分割、图像增强、AutoML、GCN、压缩剪枝、优化训练、点云、视频分析、自动驾驶等方向:

每篇论文都有相应的阅读笔记:

以下节选部分内容:
1 检测识别(包含综述/人脸检测/目标检测/不平衡/loss/one stage/tricks)
  • 综述

香港中文大学,商汤等联合提出的MMDetection,包括检测模型,实体分割等state-of-art模型框架源码,属业界良心。
[2019.06]MMDetection: Open MMLab Detection Toolbox and Benchmark
➤https://arxiv.org/pdf/1906.07155.pdf

  • 人脸检测

天津大学、武汉大学、腾讯AI实验室提出的人脸检测模型,主要针对移动端设计(backbone MobileNet v2)在高通845上达到140fps的实时性。论文主要提出一个解决类别不均衡问题(侧脸、正脸、抬头、低头、表情、遮挡等各种类型):增加困难类别和样本的损失函数权重。
[2019.02][PFLD:A Practical Facial Landmark Detector]
➤https://arxiv.org/pdf/1902.10859.pdf

  • 目标检测

北京大学等提出的一种改善型backbone,类似于HRNet和Cascade R-CNN(Cascade R-CNN是级联detector,而本文CBNet是级联backbone)。论文最强指标Cascade Mask R-CNN +Triple-ResNeXt152在COCO数据集实现53.3AP,性能上是数据榜首。  
[2019.09][CBNet: A Novel Composite Backbone Network Architecture for Object Detection]
➤https://arxiv.org/pdf/1909.03625.pdf
......

2 分割(包含综述/语义分割/实例分割/全景分割)

  • 综述


[2020][Image Segmentation Using Deep Learning:A Survey]
➤https://arxiv.org/pdf/2001.05566.pdf

  • 语义分割

旷视提出的实时语义分割模型DFANet。旷视在移动终端接连发力,不仅仅是CV三大顶会,在手机的各种内置算法也是相当强悍。一般语义分割模型只是二层级联(UNet变体),论文在降低backbone分辨率基础上做三层级联,高低特征分辨率各种拼接,fc attention的增加,充分实现不同分辨率下特征图的融合。实验效果相比ICNet以及ENet明显提升。
[DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation]
➤https://share.weiyun.com/5NgHbWH
......

3 图像处理(包含综述/超分辨率/图像去噪/图像增强)

◎Blind Deblurring综述
[2019.07][Blind Deblurring using Deep Learning: A Survey]
➤https://arxiv.org/pdf/1907.10128.pdf

◎Image inpainting综述
 [2019.09][Image inpainting: A review]
➤https://arxiv.org/pdf/1909.06399.pdf
  
◎图像去除雨滴算法综述
[2019.09][A Survey on Rain Removal from Video and Single Image]
➤https://arxiv.org/pdf/1909.08326.pdf

◎图像去噪综述。
[2019][Deep Learning on Image Denoising: An overview]
➤https://arxiv.org/pdf/1912.13171.pdf
  
  • 超分辨率

◎CVPR2019论文,中科大,自动化所,旷视等联合提出Meta-SR, 单一模型解决任意尺度的 super-resolution。模型包括:Feature Learning Module和MetaUpscale Module。Feature Learning Module。可使用RDN,EDSR,通用的特征提取模块(类似ResNet/DenseNet);Meta-Upscale学习不同比率下上采样权重。可使用的损失函数包括L1,L2正则化。Super-Resolution是否可以理解为如何语义分割的上采样过程?super-resolution的backbone,upsample,loss函数都可借鉴分类/分割的设计,遍地都是机会啊。
[Meta-SR: A Magnification-Arbitrary Network for Super-Resolution]
➤https://arxiv.org/pdf/1903.00875.pdf
  
  • 图像增强

◎CVPR2019论文,香港中文大学等提出。论文假设自然图像的光照图有着相对简单的先验,让网络模型去学习image-to-illumination mapping,实现retinex的图像增强。另外论文提出损失函数是Reconstruction Loss(L2)+Smoothness Loss+Color Loss。论文在MIT-Adobe FiveK( 5,000 raw images)之外标注3,000训练集训练模型(什么样的模型用这么少的训练集?)backbone使用VGG16,Titan X Pascal GPU训练40 epochs。
[Underexposed Photo Enhancement using Deep Illumination Estimation]
➤http://jiaya.me/papers/photoenhance_cvpr19.pdf
......

每天一坑,很少间断,不要怕repo烂尾。只要作者还在计算机视觉领域,就会不断更新自己的私房菜。

图 目标是日更,还是有偷懒的几天啊!

不要忘记star和pull requests,让我们红尘作伴。

安利一个论文阅读查找

安利一个机器学习(包含计算机视觉的)网站(已经被Facebook收购),将ArXiv上的最新机器学习论文与GitHub上的代码(TensorFlow/PyTorch/MXNet /等)对应起来。据网站开发者介绍,里面包含了 966 个机器学习任务、515 个评估排行榜(以及当前最优结果)、8625 篇论文(带源码)、704 个数据集。

paperwithcode网站广泛涉及了各类机器学习任务,包括计算机视觉、自然语言处理、医疗、方法(Methodology)、语音、游戏、图、时序、音频、机器人、音乐、推理、计算机代码、知识库、对抗等方面的内容。

感受一下网站风格,再也不怕找不到最好看的论文,加上ahong007007的awesomeCV,三个月一个疗程,计算机视觉从入门到入坑,三个疗程,可以治愈计算机视觉脸盲的问题。

网站地址:https://paperswithcode.com

awesomeCV什么时候能被Facebook和paperwithcode网站收购那,让我们拭目以待。

阅读论文与阅读书籍,探讨读书的意义

写到这里有跑题之嫌,但是我觉得阅读计算机视觉的专业文献,和读书有些共同之处

我每天阅读一篇专业论文,也在坐地铁时间打卡微信阅读。在豆瓣写了5年的书评,在微信阅读打卡280小时。

理工科读paper读专业书籍,都有一把尺子——各种实验数据集,能衡量理解的对不对,每天都有可能推翻之前的state-of-art,经典书籍可能10年100年不过时;论文会用实验数据表明我的工作好不好,有Related Work横向和纵向比较谁更好,书没有答案,没有学科综述,全靠你去总结。一般经典书籍不会说别人对不对,但是每个观点都能自圆其说

但是对于人文学科的思想和精神财富,没有评价标准和答案,只有根据个人的阅历,读懂引起心灵共振的段落。当阅读时候,一定要有自己的思考,延伸,才会让血肉之躯留下更多的精华。当我再拿起书,我会知道我应该辩证去看,这篇文章的有没有abstract在哪里,introduction该怎么说,有没有Related work可比较一下,backbone是干嘛的,method做了没,Experiments该怎么做,看完书应该得出什么conclusion。

读一篇论文,会第一时间看看Experiments做的好不好;读书,也要第一时间翻到最后,作者写的虎头蛇尾,说明作者才华不足以完整整个工作,就不要花费过多的精力了。

用理工科的思维去读书,也挺有意思:理解背后的动机,原理,当过了N年,即使不记得那本书,还记得那个思想理论和背后的故事。也许会推导出以前读过的结论、也许是推翻以前的结论。


-END-



*延伸阅读
极市独家福利40万奖金的AI移动应用大赛,参赛就有奖,入围还有额外奖励


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:AI移动应用-小极-北大-深圳),即可申请加入AI移动应用极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流一起来让思想之光照的更远吧~


△长按添加极市小助手


△长按关注极市平台,获取最新CV干货


觉得有用麻烦给个在看啦~  

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存